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有 究 主题 对 比 的 单 篇 学 术 论文 创新 力 评价 方法 ” 
种 基于 研究 主题 对 比 的 单 篇 学 术 论 文 创新 力 评 价 方法 
目 杨 京 ” 王 芳 ” 白 如 江 ” 
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摘要 : [目的 /意义 ] 创 新 是 学 术 论 文 的 本 质 要 求 ,如 何 有 效 评价 学 术 论 文 的 创新 力 一 直 以 来 备 受 国内 外 专 
家 和 学 者 关注 。 随 着 信息 技术 的 发 展 ,利用 计算 机 技术 从 论文 内 容 角 度 对 单 篇 学 术 论 文 的 创新 力 进行 评价 逐 
步 成 为 可 能 。[ 方 法 /过 程 ] 提 出 一 种 基于 研究 主题 对 比 的 单 篇 学 术 论 文 创新 力 评价 方法 。 该 方法 首先 利用 
Keygraph 算法 提取 代表 论文 研究 主题 的 关键 词 ,然后 ,将 论文 的 研究 主题 与 科学 研究 前 沿 主 题 进行 相似 度 计 
算 , 最 后 ,结合 期 刊 影响 因子 和 Altmetrics 两 项 外 在 指标 提出 一 种 论文 创新 力 综合 评价 模型 。[ 结果 /结论 ] 通 过 
对 “ 碳 纳米 管 ” 材 料 研究 领域 的 实证 研究 证 明 ,该 方法 能 够 有 效 、 迅 速 和 准确 地 从 论文 内 容 角 度 对 单 篇 学 术 论 文 


的 创新 力 进行 评价 。 
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) 学 术 论 文 作为 科学 研究 的 主要 成 果 形式 之 一 ,其 
创 渐 力 评价 方法 一 直 是 文献 计量 学 领域 的 研究 热点 和 
重油。 通过 对 学 术 论 文 创新 力 的 评价 研究 可 以 预见 对 
未 来 科学 界 产生 重大 影响 的 科学 事件 ,从 而 促使 相关 
科研 管理 机 构 制定 有 效 的 科技 政策 以 及 相关 科研 机 构 
和 凝 者 从 事 更 加 贴切 的 前 沿 研究 ,进而 有 效 地 促进 科 
学 技术 的 发 展 。 

由 于 创新 力 自身 的 复杂 性 和 多 样 性 ,目前 并 没有 
公议 的 学 术 论 文 创新 力 评价 指标 和 方法 。 通 过 梳理 相 
关 研 究 发 现 ,国际 学 术 界 最 为 认可 的 就 是 同行 评议 口 。 
同行 评议 是 一 种 主观 的 定性 评价 方法 ,该 方法 虽然 在 
论文 创新 力 评价 中 发 挥 着 重要 的 作用 ,但 也 暴露 出 一 
些 问题 ,如 基于 评审 专家 个 人 认 知 的 特性 会 造成 评价 
结果 的 非 公正 性 、 非 客观 性 和 非 合 理性 等 问题 。 引 
文 分 析 是 当前 评价 学 术 论文 影响 力 最 主流 的 方法 ,学 
者 们 普遍 认为 论文 的 被 引 量 越 高 ,该 论文 影响 力 越 
大 中 。 在 文献 计量 领域 ,部 分 学 者 对 论文 创新 力 的 定 
量 评价 同样 从 论文 被 引 量 上 进行 了 探讨 。2013 年 B. 
Uzzi 等 在 Science 上 发 表 论 文 , 认 为 论文 具有 高 创新 力 


I 
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特点 时 ,该 论文 更 有 可 能 成 为 高 被 引 论文 ” ; 沈 律 所 、 
任 海 黄 等 的 研究 同样 证 明 论文 创新 力 与 被 引 量 之 间 
存在 一 定 的 正 相关 关 系 。 然 而 ,众所周知 引文 指标 存 
在 明显 的 时 滞 性 问题 , 即 该 指标 不 能 在 论文 发 表 的 第 
一 时 间 对 论文 创新 力 进行 评价 ,而 是 需要 一 定 的 历史 
数据 积累 。 

由 于 上 述 基于 引文 的 学 术 论文 创新 力 评价 具有 局 
限 性 ,研究 人 员 开 始 将 目光 转向 学 术 论 文 内 容 本 身 , 通 
过 对 学 术 论文 的 内 容 分 析 与 挖掘 构建 学 术 论文 创新 力 
测度 指标 。 例 如 ,沈阳 "”"、D，Yogatama 等 ”、 杨 建 林 
等 分别 使 用 论文 题目 .关键 词 对 论文 创新 力 进行 评 
价 ; 朱 大 明 等 从 参考 文献 的 角度 来 评价 学 术 论文 的 创 
新 力 "" ; 索 传 军 等 利用 学 术 论 文中 知识 元 转移 的 数量 
测度 单 篇 学 术 论文 的 老化 度 和 创新 度 "" ,等 等 。 虽然 
论文 题目 .关键 词 .参考 文献 等 可 以 在 一 定 程度 上 反映 
学 术 论文 中 包含 的 重要 主题 .思想 .概念 或 方法 ,但 这 
些 指标 与 具有 意义 的 潜在 创新 主题 的 概念 和 语义 属性 
是 松散 的 关系 或 并 不 直接 结合 ,不 能 完全 体现 论文 的 
创新 价值 。 随 着 信息 技术 的 发 展 ,利用 自然 语言 处 理 
技术 从 论文 内 容 角 度 对 论文 创新 力 进 行 评价 逐步 成 为 
可 能 。 本 文 认为 ,如 果 某 篇 学 术 论文 的 研究 主题 和 当 
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前 的 科学 研究 前 沿 主题 相 契 合 ,同时 发 表 在 影响 因子 ，” 荐 领 域 的 研究 热点 与 核心 内 容 , 许 多 学 者 利用 不 同 的 


较 高 的 期 刊 上 ,这 篇 论文 即 具 有 较 高 的 创新 力 。 在 此 
基础 上 ,本 文 提 出 一 种 基于 研究 主题 对 比 的 单 篇 学 术 
论文 创新 力 评价 方法 。 该 方法 综合 学 术 论 文 研究 主 
题 Altmetrics 指标 、 期 刊 影响 因子 对 单 篇 学 术 论 文 进 
行 综合 评价 ,构建 单 篇 学 术 论 文 创新 力 综合 评价 体系 。 


2 相关 研究 


2.1 概念 界定 

学 术 论文 的 影响 力 与 创新 力 是 比较 容易 混淆 的 两 
个 概念 。 学 术 论文 影响 力主 要 包括 两 个 方面 :学 术 影 
响 力 和 社会 影响 力 "”。 学 术 影响 力 指 学 术 论 文 在 学 
术 界 或 所 属 学 科 领 域 .邻近 学 科 领 域 所 产生 的 正面 或 
负面 的 研究 性 评价 , 主要 通过 同行 评议 以 及 论文 的 引 
证 村 被 引证 来 实现 ; 而 学 术 论 文 的 社会 影响 力主 要 指 
-篇 学 术 论文 在 学 术 界 之 外 的 社会 层面 产生 的 正面 和 


负 寺 评价 ,主要 体现 在 社会 受众 的 关注 程度 ,是 出 版 机 


二 
人 


社会 受众 的 反馈 性 评价 。 

而 学 术 论文 创新 力 具有 一 定 的 复杂 性 和 多 样 性 ， 
2 对 于 学 术 论 文 创新 的 内 涵 与 标准 从 不 同 角度 进行 
了 E 备 自 的 表述 。 陈 建 青 将 学 术 论文 “创新 "定义 为 在 
相 美学 术 领域 内 ,创立 或 发 展 了 有 价值 的 新 理论 .新 专 
蜂 浙 方法 .新 技术 等 ,或 在 综合 前 人 研究 成 果 和 经 验 
的 车 础 上 ,加 工 、 整 理 , 提 炼 .发 气 出 新 意 ,在 参与 论证 
的 漆 题 中 ,提出 与 已 有 结论 不 同 的 新 结论 "” ; 周 露 阳 
对 党 术 论 文 创新 因素 的 指标 体系 进行 了 梳理 ,认为 论 
文 的 创新 因素 主要 在 于 新 论点 和 新 论据 ,新 论点 包括 
新 前 论 .新 方法 .新 对 策 和 新 学 科 ; 新 论据 包括 新 数据 
和 新 事实 ,新 数据 指 通过 调查 或 实验 获取 的 第 一 手数 
据 ,新 事实 指 揭示 第 一 次 出 现 的 现象 ;T，Heinze 等 
将 高 创新 性 研究 概括 为 :革命 性 新 理论 .发现 新 现象、 
提出 和 使 用 新 方法 ,发明 新 仪器 、 从 新 角度 整合 现 有 理 
论 "; 叶 亮 等 认为 创新 力 包含 有 用 性 和 新 颖 性 两 个 特 
性 ,有 用 性 强调 合适 有效 、 有 价值 ,新 颖 性 强调 独特 、 
少见 9 ; 杨 建 林 等 认为 主题 新 颖 性 是 学 术 论 文 创新 最 
本 质 的 特征 之 一 ,主题 新 颖 性 包括 新 观念 .新 思路 ,新 
模式 等 中。 

综 上 ,本 文通 过 论文 研究 主题 对 论文 创新 力 进行 
评价 ,将 定义 和 量化 主题 新 颖 度 作为 论文 创新 力 评价 
的 首要 任务 ,通过 研究 主题 对 论文 进行 评价 是 “新 论 
点 "层面 的 创新 力 评价 。 
2.2， 论文 主题 自动 识别 研究 

学 术 论文 主题 自动 识别 一 直 是 数据 挖掘 和 信息 扒 
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技术 和 方法 对 论文 主题 进行 自动 识别 研究 ,以 辅助 科 
研 人 员 快 速 把 握 论文 主题 ,提高 科研 效率 。 郭 红 梅 等 
对 目前 国内 外 主要 的 论文 主题 识别 方法 进行 了 归纳 总 
结 ,分 为 以 下 五 大 类 . 

(1) 频 次 统计 方法 。 该 方法 主要 通过 词 频 统计 及 
词 在 论文 中 的 分 布 进行 主题 识别 。 目 前 对 于 该 方法 的 
研究 相对 成 熟 , 其 优点 是 简单 易 行 ,但 缺点 是 其 孤立 地 
考虑 词 的 特征 而 忽略 了 词 在 文本 中 的 相互 影响 ,并 且 
无 法 揭示 代表 论文 主题 的 低频 词 。 

(2) 外 部 词典 方法 。 代 表 性 方法 包括 基于 Word- 
Net 词 表 、 基 于 MESH 词 表 等 。 外 部 词典 方法 虽然 能 较 
好 地 反映 文本 中 概念 在 词典 中 的 映射 关系 ,但 是 脱离 
文本 内 容 , 并 且 未 记录 的 词 会 导致 新 词 缺 失 , 无 法 全 面 
揭示 论文 主题 。 

(3 ) 潜在 语义 索引 方法 。 基 于 潜在 语义 索引 的 
LDA 方法 根据 文档 出 现 某 词 的 概率 进行 主题 识别 ,能 
够 扩大 所 识别 主题 的 语义 覆盖 率 。 缺 点 是 容易 掺 杂品 
声 ,并 且 需 要 人 工 指定 聚 类 系数 ,这 种 经 验 值 难以 获 
取 。 

(4) 中 心 度 方法 。 该 方法 从 网 络 的 角度 对 文本 进 
行 分 析 ,代表 性 的 指标 有 中 介 中 心 度 \ 点 度 中 心 度 和 接 
近 中 心 度 等 。 中 心 度 方法 综合 考虑 了 词 间 的 多 种 语 
法 .语义 关系 ,但 是 很 多 算法 只 能 适用 于 小 规模 的 无 向 
图 ,对 于 大 规模 的 复杂 网 络 很 难 实现 。 

(5) 子 图 挖掘 方法 。 该 方法 主要 依据 图 中 边 或 结 
点 的 属性 来 识别 图 中 核心 的 术语 或 关联 子 团 ,以 揭示 
论文 的 主旨 内 容 。 子 图 挖掘 方法 是 一 种 有 待 深 入 探索 
的 新 的 论文 主题 识别 方法 ,对 于 该 方法 的 研究 尚未 成 
熟 , 有 竺 进一步 深化 。 

综 上 ,频次 统计 方法 发 展 相对 成 熟 ,能 够 有 效 地 对 
论文 的 研究 主题 进行 识别 。M.， Yang 等 的 实验 结果 表 
明 '"… ,频次 统计 方法 中 Keygraph 算法 能 够 有 效 克服 无 
法 提取 代表 论文 主题 的 低频 词 等 问题 , 如 果 Keygraph 
抽取 的 关键 词 很 少 , 则 大 多 关键 词 带 有 重要 的 思想 ， 
Keygraph 算法 能 够 对 用 户 寻 找 匹 配 其 思想 或 特殊 兴 
的 文档 起 到 很 好 的 作用 。 因 此 ,本 文选 择 Keygraph 算 
法 对 论文 进行 研究 主题 提取 。 

2.3 Keygraph 算法 

Keygraph 算法 是 由 东京 大 学 的 Y.， Ohsawa 教授 于 
1998 年 提出 的 '” ,该 算法 能 够 抽取 代表 文档 主要 观点 
的 关键 词 ,而 且 不 需要 依赖 额外 的 工具 ( 如 文档 集 或 
自然 语言 处 理工 具 ) 。 该 算法 是 基于 图 形 分 割 的 思想 ， 
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将 文档 比喻 成 图 形 ,其 中 文档 共 现 的 词语 放 人 集群 中 ， 
每 个 集群 映射 了 文档 中 作者 的 主要 观点 。 统 计 集 群 中 
词语 之 间 的 关系 ,排名 靠 前 的 会 被 选 作 该 文档 的 关键 
词 。Keygraph 算法 的 最 终 目 的 是 标 引 反映 作者 观点 的 
主要 关键 词 而 不 是 频次 较 高 的 词语 。 

文档 D 携带 的 这 些 词 与 作者 表达 观点 相关 ,将 文 
档 D 看 成 一 个 构建 好 的 建筑 物 , 该 建筑 物 有 地 基 \ 墙 、 
门窗 ,如 图 1 所 示 : 
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Ga 图 1 将 文档 比喻 成 构建 好 的 建筑 物 


En 


作 建 筑 物 都 需要 屋顶 (roof) ,术语 集群 构成 了 建筑 物 


(uo 
的 纲 他 部 分 5 。 假 设 文档 D 由 句子 组 成 ,文档 中 的 
企 句 子 由 词组 成 ,Keygraph 算法 抽取 关键 词 步骤 如 


(5(1) 文 档 准备 。 对 文档 进行 预 处 理 , 具 体 包括 去 
除 实 档 中 的 停 用 词 .对 词 进 行 同义词 转换 和 词根 还 原 。 
然后 ,对 文档 进行 自动 分 词 并 提取 出 词 频 高 于 阅 值 的 
高 颖 词 ,并 按照 词 频 高 低 进行 排序 构建 成 词 列表 。 

(2) 提 取 高 频 链接 。 链 接 代表 一 对 词 经 常 出 现在 
同一 个 句子 中 。 该 步骤 主要 通过 对 文档 中 在 同一 句子 
内 共 现 的 词 对 进行 统计 ,并 加 以 排序 ,提取 出 高 于 指定 
阔 值 的 高 频 共 现 词 作为 高 频 链 接 。 

(3 ) 提取 重要 词 和 重要 链接 。 重 要 词 指 的 是 连接 
高 频 词 群 的 词 。 该 步骤 主要 通过 计算 文档 中 的 所 有 词 
与 一 群 高 频 词 共 现 的 频率 ,将 共 现 频率 值 高 于 指定 阅 
值 的 抽取 出 来 作为 重要 词 ,对 于 每 一 个 高 频 词 和 每 一 
个 重要 词 ,计算 其 在 同一 句子 中 共 现 的 频次 然后 排序 ， 
当 共 现 频次 高 于 指定 阔 值 时 ,将 该 链接 作为 重要 链接 。 

(4) 抽 取 关键 词 。 即 提取 代表 文档 主要 观点 的 关 
键 词 。 将 提取 出 的 每 个 重要 词根 据 与 其 连接 的 重要 链 
接 的 共 现 值 的 和 进行 排序 , 当 高 于 指定 阔 值 时 ,其 所 代 
表 的 词 项 会 被 提取 出 来 作为 关键 词 。 


3 研究 思路 


基于 研究 主题 对 比 的 单 篇 学 术 论 文 创 新 力 评价 具 
体 研究 思路 如 下 :中 获取 同学 科 领 域 论 文 ,构造 实验 数 
据 集 ;@ 进 行 数据 预 处 理 ,具体 包括 :分 词 .去除 停 用 词 
等 ;@@ 使 用 Keygraph 算法 抽取 代表 论文 研究 主题 的 关 
键 词 ;由 获取 该 学 科 领 域 的 科学 研究 前 沿 主题 ;@ 将 论 
文 的 研究 主题 与 科学 研究 前 沿 主题 进行 相似 度 计算 ; 
@@ 根 据 相 似 度 计 算 值 ,结合 期 刊 声望 和 替代 计量 学 两 
项 外 在 指标 综合 判断 论文 的 创新 力 。 如 图 2 所 示 : 


数据 预 处 理 
Keygraph 算法 
抽取 论文 主题 
关键 词 科学 研究 前 沿 主题 
主题 相似 度 计算 
期 刊 声望 指标 替代 计量 学 指标 
外 在 此 标 外 在 此 标 
基于 主题 对 比 的 
论文 创新 力 评价 


图 2 基于 研究 主题 对 比 的 单 篇 学 术 论文 
创新 力 评价 思路 


3.1 主题 相似 度 计 算 

使 用 Keygraph 算法 抽取 出 代表 论文 研究 主题 的 关 
键 词 后 ,需要 获取 该 学 科 领 域 的 科学 研究 前 沿 主题 , 然 
后 将 论文 主题 与 科学 研究 前 沿 主题 进行 相似 度 计算 。 

常用 的 相似 度 计算 方法 包括 词 重 闭 度 计算 ” 、 基 
于 几何 距离 计算 '” 、 词 差 集 计 算 ” 等 。 由 于 Keygraph 
算法 抽取 的 是 代表 论文 研究 主题 的 主题 词 ,因此 ,本 文 
采用 词 重 和 至 度 计算 方法 Jaccard 系数 判断 两 者 的 相似 
度 。Jaccard 系数 是 一 种 用 于 量化 两 个 集合 相似 度 的 
指标 ,该 计算 方法 将 句子 视 为 词 的 集合 ,两 者 共同 包含 
的 主题 词 数 越 多 , 则 两 者 的 相似 度 越 大 。 对 于 任意 两 
个 包含 相同 类 型 元 素 的 集合 A.B, 以 C(A) 表 示 论 文 
主题 词 个 数 ,C(B) 表示 科学 研究 前 治 主题 词 个 数 ,两 
者 的 Jaccard 如 公式 (1) 所 示 : 


C(ANB) . 
CCAUB) 会 式 (1) 


通过 Jaccard 系数 计算 出 每 篇 论文 与 科学 研究 前 
沿 的 相似 度 , 记 作 Simi。 


Jaccard Coefficient = 
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3.2 ”基于 研究 主题 对 比 的 学 术 论文 创新 力 综合 评价 

通过 以 上 步骤 可 以 筛选 出 符合 科学 研究 前 沿 主题 
的 论文 ,然而 ,并 不 是 所 有 符合 科学 研究 前 沿 主题 的 论 
文 都 具有 较 高 的 创新 力 。 因 为 许多 论文 虽然 研究 主题 
与 科学 研究 前 沿 主题 相 吻 合 ,但 也 可 能 是 追 热点 的 文 
章 ,论文 内 容 并 不 一 定 包 含 具有 创新 性 的 观念 .思路 
等 ,因此 ,本 文 再 结合 外 在 指标 对 论文 创新 力 进 行 综合 
评价 。 期 刊 影响 因子 和 Altmetrics 指标 是 评价 论文 影 
响 力 最 常用 的 两 种 方法 ,该 两 项 指标 数值 能 够 在 论文 
发 表 第 一 时 间 内 获取 ,不 具有 时 滞 性 。Altmetrics 着 眼 
于 学 术 论文 在 社交 网 络 . 鳞 论 媒体 、 网 络 学 术 工 具 等 平 
台 上 的 传播 热 议 程度 ,网 络 传播 速度 快 .范围 广 的 特点 
避免 了 引文 分 析 的 低速 率 .长 周期 问题 。 王 贤 文 等 指 
出 当 一 篇 论文 具有 较 好 的 新 颖 性 话题 性 时 ,其 在 社交 
网 络 上 更 能 得 到 广泛 的 传播 ” ,因此 Altmetrics 指标 
能 够 辅助 把 握 具有 较 高 创新 力 的 论文 。 期刊 影响 因子 
长 贸 以 来 一 直 被 视 为 评价 论文 的 有 效 方式 , 杨 建 林 通 
过 绒 证 研究 证 明 , 在 同一 学 科 领 域内 ,重要 核心 期 刊 刊 
哉 治文 的 平均 主题 新 颖 度 较 高 ” 。 因 此 ,本 文 结合 
Afimetics 指标 和 期 刊 影响 因子 两 项 外 在 指标 对 论文 
创新 力 进行 综合 评价 。Altmetrics 指标 借助 Altmetrics 
EGGhrer 获取 相关 指标 数据 ,Altmetrics Explorer 能 够 对 
论 守 按照 各 指标 要 求 进行 评价 ,评价 指标 包括 Blog、 
Ne Outlets .Twitter .Weibo Facebook Wikipedia6 项 ,给 
上 起 活 文 的 Altmetric Score ,将 论文 的 Altmetric Score 作 
为 世代 计 量 学 指标 数值 , 记 作 Alt ;期刊 影响 因子 , 记 
〇 在 综合 评价 策略 中 ,由 于 各 分 项 指标 的 重要 性 和 
地 位 有 所 差别 ,因此 应 当 确定 各 分 项 指标 的 不 同 权重 
值 和 聚合 方法 ,以 保证 综合 评价 的 科学 性 。 目 前 关于 
综合 评价 策略 ,常用 的 有 层次 分 析 法 、 线 性 加 权 求 和 
法 ,模糊 综合 评价 法 .TOPSIS 法 等 ”。 鉴 于 Sim,、IF,、 
Alt 3 项 指标 数值 差异 较 大 ,本 文选 择 TOPSIS 法 作为 
最 终 的 综合 评价 策略 。TOPSIS 法 通常 用 于 对 一 个 拥 
有 多 个 指标 的 对 象 进行 综合 分 析 评 价 , 该 方法 能 够 比 
较 充分 地 利用 原始 数据 信息 对 评价 指标 进行 归 一 化 处 
理 ,并 给 予 各 评价 指标 合理 的 权重 ,对 各 对 象 进 行 客观 
评价 ,其 克服 了 主观 定 权 的 缺陷 。TOPSIS 法 的 基本 原 
理 是 对 评价 指标 构造 归 一 化 后 的 原始 数据 空间 矩阵 ， 
待 评 价 论文 可 被 视 为 空间 中 的 某 一 点 ,针对 论文 的 3 
项 指标 (Sim; IF, .Alt, ) 从 所 有 点 中 选 出 每 项 指标 的 最 
优 值 (评价 指标 论文 中 的 最 大 值 ) 和 最 差 值 (评价 指标 
论文 中 的 最 小 值 ) ,然后 计算 每 个 点 与 最 优 值 和 最 差 值 
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的 距离 ,分 别 记 作 D;” 和 Di” ,从 而 得 到 待 评价 论文 
与 最 优 值 和 最 差 值 的 相对 接近 程度 5; 值 ,根据 S; 值 大 
小 对 论文 进行 综合 评价 。 具 体 计算 步骤 如 公式 (2)、 
(3)、(4) 所 示 : 


D,™ = /Sim, -Sm ) + (IF, -IF,.) +(OAlt -At ) 
公式 (2) 

D,™ = (Sim, -Sim,,) +(IF, -IF,,) + (Al,—Alt,.)” 
公式 (3) 

Si = D,™/(D,"™ +D,"™) 公式 (4) 


其 中 , Sim 表示 论 文 相似 度 评价 指标 中 的 最 优 
值 ;IF,, 表 示 论 文 期 刊 影响 因子 评价 指标 中 的 最 优 值 ; 
Al 表示 论文 替代 计量 学 评价 指标 中 的 最 优 值 ;Simw 
表示 论文 相似 度 评 价 指标 中 的 最 差 值 ;下 ,表示 论文 
期 刊 影响 因子 评价 指标 中 的 最 差 值 ; Alt,。 表 示 论 文 蔡 
代 计 量 学 评价 指标 中 的 最 差 值 ;D, 表示 被 评价 论文 
每 个 评级 指标 0 - 1 转换 值 到 该 指标 最 优 值 的 距离 ; 
D,”“ 表 示 被 评价 论文 每 个 评级 指标 0 -1 转换 值 到 该 
指标 最 差 值 的 距离 ;S; 表示 论文 最 终 综合 评价 值 。 

最 后 按照 5; 的 大 小 对 每 篇 论文 进行 综合 排序 ,将 
S 值 优异 的 论文 视 为 具有 较 高 的 创新 力 的 论文 (S 值 越 
小 越 优 异 ) 。 


4 ”实证 研究 


本 文选 取 “ 碳 纳米 管 ” 材 料 研究 领域 验证 提出 的 
基于 研究 主题 对 比 的 单 篇 学 术 论 文 创新 力 评价 方法 。 
具体 过 程 如 下 : 

4.1 构造 检索 式 ,获取 实验 数据 集 

本 文 结 合 领域 专家 意见 构造 的 “ 碳 纳米 管 " 材料 
人 研究 领域 检索 式 如 下 : (TI = ("carbon nanotube* " ) or 
TI= ("carbon-nanotube * " ) or TT= ("CNT*") or TI 
=("DWNT #") or TT= ("MWNT#") or TT=(" 
SWNT*") or TT= ("MWCNT*") or TI= ("SWCNT 
*") orTI= ("DWCNT *")) and (TI= (yarn * ) or 
TI= (fibre * ) or TI = (fiber * ) or TI = (sheet * ) or TI 
= (forest * )or TT = (spun * ) or TI = (spin * ) ) ,选择 
的 数据 库 为 SSCI SCI-EXPANDED .CPCI-S ,时 间 跨 度 
为 2010 -2013 年 , 共 检 索 出 1 232 篇 文献 (检索 时 间 : 
2017 年 4 月 15 日 )。 

对 于 检索 的 时 间 跨 度 , 由 于 Altmetrics 兴起 于 2010 
年 ,2010 年 后 的 论文 能 够 获取 其 Altmetric Score , 因此 
本 文选 择 2010 年 作为 起 始 检索 时 间 ; 后 续 研 究 将 论文 
S 值 与 被 引 量 进行 相关 性 分 析 验 证 本 文 提出 论文 创新 


杨 京 ， 王 芳 ,， 和 白 如 江 . 一 种 基于 研究 主 
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题 对 比 的 单 篇 学 术 论文 创新 力 评价 方法 []]. 图 书 情报 工作 ,2018 ,62(17) :75 -83. 


力 评价 方法 的 有 效 性 ,通过 观察 ,发 现 2013 年 后 “ 碳 纳 
米 管 "材料 领域 的 论文 被 引 量 较 低 ,被 引 数值 积累 不 
足 , 因 此 将 2013 年 作为 终止 检索 时 间 ,对 2010 - 2013 
年 共 4 年 的 论文 进行 实证 分 析 。 

“ 碳 纳 米 管 "材料 研究 领域 文献 数量 分 布 如 图 3 所 
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人 由 图 3 可 以 看 出 ,2010 -2013 年 每 年 发 文 数量 差 
别 能 大 。2010 -2011 年 发 文 量 出 现 小 幅 上 升 ,2011 - 
26 吧 年 发 文 量 上 升 趋势 比较 明显 ,而 2012 - 2013 年 发 
量 出 现 小 幅 下 降 。 
@ 〇 对 检索 结果 进行 初步 分 析 , 本 文选 取 发 文 量 前 10 
丛 光 机 构 发 表 的 共 408 篇 论文 ( 见 表 1) 全 文 进行 后 续 
活 验 


4GN 数据 预 处 理 

_ 伍 数据 预 处 理 阶段 的 主要 工作 包括 将 获取 的 408 篇 
论 交 进行 格式 转换 ,分词 .去除 停 用 词 大 小 写 转换 等 。 
OD 堪 式 转换 :将 408 篇 PDF 论文 转换 为 纯 文本 格式 ; 


表 1 机 构 发 文 量 


机 构 发 文 量 (篇 ) 
CHINESE ACADEMY OF SCIENCES 93 
UNIVERSITY OF TEXAS DALLAS 46 
UNIVERSITY OF CAMBRIDGE 42 
NANYANG TECHNOLOGICAL UNIVERSITY NATIONAL INSTI- 37 


TUTE OF EDUCATION NIE SINGAPORE 


NANYANG TECHNOLOGICAL UNIVERSITY 37 
COMMONWEALTH SCIENTIFIC INDUSTRIAL RESEARCH OR- 33 
GANISATION CSIRO 

TSINGHUA UNIVERSITY 32 
HARBIN INSTITUTE OF TECHNOLOGY 32 
UNIVERSITI MALAYA 28 


UNITED STATES DEPARTMENT OF DEFENSE 28 


@ 分 词 :将 每 篇 论文 切 分 成 词语 级 别 ;G@) 停 用 词 处 理 : 
停 用 词 主要 包括 数字 数学 字符 .英文 符号 .标点 符号 
等 ,比如 "athe\or\in "等 。 停 用 词 在 论文 中 出 现 次 数 
较 高 但 没有 任何 实际 含义 ,这 些 词 占用 空间 大 却 对 论 
文 研究 主题 的 表达 没有 意义 。 因 此 ,将 这 些 停 用 词 进 
行 别 除 ,能 够 降低 计算 量 并 使 提取 的 代表 论文 研究 主 
题 的 关键 词 更 加 精炼 准确 。 

以 上 全 部 工作 通过 德国 KNIME 公司 的 KNIME 软 
件 完成 。 
4.3 ”Keygraph 算法 抽取 代表 论文 研究 主题 的 关键 词 

此 阶段 的 主要 工作 是 通过 Keygraph 对 每 篇 论文 进 
行 关键 词 抽取 ,关键 词 抽取 的 准确 性 直接 影响 着 实验 结 
果 的 好 坏 。 本 文通 过 KNIME 工具 的 Keygraph keyword 
extractor 模块 实现 ,具体 实验 模块 配置 如 图 4 所 示 : 


它 PDF Parser BoW creator Stop word Filter Punctuation Erasure Case Converter Porter Stemmer Keygraph keyword extractor 
ED 
PDF 文档 读 取 、 转 换 。 ”分词 去 除 停 用 记 去 除 标点 符号 大 小 写 转 痪 词 二 提取 Keygraph 关键 词 提取 


图 4 Keygraph 算法 关键 词 抽取 


为 了 能 够 最 大 限度 地 揭示 论文 的 研究 主题 ,本 文 
将 每 篇 论文 抽取 的 关键 词 个 数 设置 为 10 个 ,对 408 篇 


论文 进行 关键 词 抽 取 , 共 得 到 代表 论文 研究 主题 的 关 
键 词 4 080 个 。 部 分 抽取 结果 如 图 5 所 示 : 
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5 关键 词 抽取 结果 
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由 图 5 可 以 看 出 ,通过 对 题名 为 Continuous multi- 
layered carbon nanotube yarns 的 论文 进行 关键 词 抽 取 ， 
共 得 到 代表 论文 研究 主题 的 关键 词 10 个 ,图 中 Score 
表示 根据 Keygraph 算法 抽出 的 关键 词 对 论文 研究 主题 
表达 过 程 中 的 贡献 作用 的 大 小 计算 得 分 。 

4.4 基于 Jaccard 系数 的 主题 相似 度 计算 

对 于 ”* 碳 纳米 管 " 材料 研究 领域 2010 - 2013 年 的 
科学 研究 前 治 主题 ,本 文通 过 陈 超 美博 士 开 发 的 
Citespace 进行 揭示 ,利用 Citespace 对 从 Web of Science 
下 载 的 数据 进行 分 析 ,部 分 前 治 主题 演化 趋势 结果 见 
图 6。 

通过 对 聚 类 结果 进行 分 析 , 共 筛选 出 20 个 研究 前 
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6 ”Citespace 主题 聚 类 结果 


沿 主题 词 ， 碳 纳米 管 "材料 研究 领域 2010 -2013 年 每 
年 的 研究 前 沿 主题 词 如 表 2 所 示 : 


人 Ass 罗 二 十 出 sm : SN + = 
表 2 “ 碳 纳米 管 " 材料 研究 领域 2010 - 2013 年 研究 前 沿 主题 词 
1 
份 研究 前 沿 主题 词 
BE 
Bo 年 transistor,nanomaterial ,field emission ,rope ,single ,generation ,spun ,polymer composite , chemical vapor deposition 
Rs ; , Se, , 
Nr 年 transistor, generation ,spun ,polymer composite ,chemical vapor deposition , water, electrospinning , multiwalled carbon nanotube 
Ie 
年 “nanomaterial ,field emission ,rope ,single ,water,electrospinning, multiwalled carbon nanotube ,sheet ,spectroscopy ,neat ,alignment , gas chromatography ,epoxy 
[> 
pg 
年 “nanomaterial ,single ,water,multiwalled carbon nanotube ,sheet ,spectroscopy , neat, alignment ,gas chromatography , epoxy ,spun yarn 


OD 提取 上 述 科 学 研究 前 沿 主题 词 词 干 后 ,使 用 R 语 


训 圣 行 Jaccard 相似 度 计算 ,分 别 得 到 每 篇 论文 的 Sim 
全 通过 对 计算 结果 进行 分 析 , 本 文 将 阅 值 设 定 为 


0.3 , 共 得 到 符合 条 件 的 论文 96 篇 。2010 - 2013 年 期 
间 每 年 Sim 数值 排名 前 三 位 的 论文 如 表 3 所 示 : 


表 3 Jaccard 系数 计算 值 


Pp 
CN 
本 时， 
7 标题 年 份 ”Sim 值 
一 
四国 和 Carbon nanotube grafted carbon fibres :a study of wetting and fibre fragmentation 2010 0. 82 
> 
Ap Poisson’ s ratio and porosity of carbon nanotube dry spun yarns 2010 0.75 
TE 
0\ 
AP Continuous multilayered carbon nanotube yarns 2010 0.71 
| 
a he Electrical conductivity of pure carbon nanotube yarns 2011 0.78 
Fs 
C5 Superaligned carbon nanotube arrays, films, and yarns: aroad to applications 2011 0.77 
Se 
6 Effect of carbon nanotube length and density on the properties of carbon nanotube -coated carbon fiber/polyester composites 2011 0.72 
7 Electrophoretic deposition of carbon nanotubes onto carbon -fiber fabric for production of carbon/epoxy composites with improved mechanical 2012 0.73 
properties 
8 Enhancement of carbon nanotube fibres using different solvents and polymers 2012 0.68 
9 Chemically and uniformly grafting carbon nanotubes onto carbon fibers by poly( amidoamine ) for enhancing interfacial strength in carbon fi- Di 0 
ber composites 
10 Twisting carbon nanotube fibers for both wire shaped micro-supercapacitor and micro-battery 2013 0.79 
i TInterfacial improvement of carbon fiber/epoxy composites using a simple process for depositing commercially functionalized carbon nanotubes 2013 0.73 
on the fibers 
12 High performance two ply yarn supercapacitors based on carbon nanotubes and polyaniline nanowire arrays 2013 0.71 


由 表 3 可 知 ,对 于 2010 年 的 论文 ,题名 为 Carbon 
nanotube erafted carbon fibres: a study of wetting and fibre 
fragmentation 的 论文 具有 最 高 的 Sm 值 ,达到 0. 82 ,2011 
E2012 年 2013 年 Sim 最 大 值 分 别 为 0.78 .0.73 .0.79。 
4.5 基于 TOPSIS 法 的 学 术 论文 创新 力 综合 评价 

通过 中 国 科 学 院 JCR 分 区 数据 获取 论文 发 表 期 刊 
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的 影响 因子 指标 数值 (IF;) ,然后 通过 Altmetrics Ex- 
plorer 获取 论文 的 蔡 代 计量 学 指标 数值 (Alt ) ,最 后 通 
过 TOPSIS 法 计算 每 篇 论文 的 S 值 。 本 文 首 先 使 用 


Histcite 软件 从 1 
7 所 示 ( 图 中 ， 


232 篇 论 文中 筛选 出 高 被 引 论文 ,如 


圆 形 内 编号 代表 该 年 份 被 引 量 较 高 的 


论文 , 圆 形 越 大 表示 被 引 量 越 高 , 连 线 表示 论文 间 存在 


引用 关系 ): 


ChinaXiv 合 作 期 刊 


杨 京 , 王 芳 , 白 如 江 . 一 种 基于 研究 主题 对 比 的 单 篇 学 术 论 文 创新 力 评价 方法 []]. 图 书 情报 工作 ,2018 ,62(17) :75 - 83. 
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图 7 Histcite 引文 分 析 


由 图 7 可 以 看 出 “ 碳 纳米 管材 料 领 域 2010 - 
年 论文 之 间 的 引用 情况 如 下 : 

和-(1) 对 于 2010 年 的 论文 ,编号 为 49 的 论文 得 到 了 
最 高 的 被 引 量 125 次 ,该 论文 题名 为 Continuous multi- 
Jeyd carbon nanotube yarns ,发 表 于 Advanced materials 
期 问 ;编号 为 144 .138 .63 的 论文 同样 得 到 了 较 高 的 被 
引 罚 ,分 别 为 116.91.88 次 。 

3(2) 对 于 2011 年 的 论文 ,编号 为 254 的 论文 得 到 
高 的 被 引 量 180 次 ,该 论文 题名 为 Superaligned 
eon nanotube arrays, films, and yarns: a road to appli- 


,和 
ca&ohs ,同样 发 表 于 Advanced materials 期 刊 ;编号 为 


85E70.60 次 。 
CS(3) 对 于 2012 年 的 论文 ,编号 为 672 的 论文 得 到 


了 最 高 的 被 引 量 143 次 ,该 论文 题名 为 Electrically， 


chemically, and photonically powered torsional and tensile 


actuation of hybrid carbon nanotube yarn muscles ,发 表 于 
Science 期 刊 ;编号 为 515 .622 的 论文 同样 得 到 较 高 的 
被 引 量 , 分 别 为 93 .63 次 。 

(4) 对 于 2013 年 的 论文 ,编号 为 744 的 论文 得 到 
了 最 高 的 被 引 量 284 次 ,该 论文 题名 为 Strong，, lighi， 
multifunctional fibers of carbon nanotubes with ultrahigh 
conductivity ,发 表 于 Science 期 刊 ;编号 为 767 .782 .747 
的 论文 同样 得 到 较 高 的 被 引 量 ,分 别 为 251、216、63 
次 。 


然后 ,本 文 筛选 出 每 年 $ 值 排名 前 3 位 的 论文 ,将 
论文 $ 值 与 被 引 量 进行 对 比分 析 ,结果 如 表 4 所 示 : 


表 4 论文 指标 数值 信息 


-一 
4 标题 年 份 Sim 值 正 值 Al 值 S 值 被 引 量 人 
1 Continuous multilayered carbon nanotube yarns 2010 0.71 18.96 21 0.62 125 49 
Carbon nanotube grafted carbon fibres: a study of wetting and fibre fragmentation 210 32 3.719 26 0.67 91 138 
3 Scratch -resistant, highly conductive, and high -strength carbon nanotube -based composite yarns 2010 0.31 13.334 14 0.71 116 144 
4 Superaligned carbon nanotube arrays, films, and yarns: a road to applications 2011 0.77 18.96 36 0.59 180 254 
Electrical conductivity of pure carbon nanotube yarns 2011 0.78 6.198 1 0. 68 用 352 
6 Effect of carbon nanotube length and density on the properties of carbon nanotube coated carbon fi- 2011 0.72 6.198 5 0.81 54 318 


ber/polyester composites 


2 Electrically, chemically, and photonically powered torsional and tensile actuation of hybrid carbon 2012 0.37 34.661 124 0.45 143 672 


nanotube yarn muscles 


8 Electrophoretic deposition of carbon nanotubes onto carbon fiber fabric for production of carbon/ep- 2012 0.73 6.201 3 0. 72 63 622 


oxy composites with improved mechanical properties 


9 Enhancement of carbon nanotube fibres using different solvents and polymers 2012 0.68 3.897 29 六 32 591 

10 Strong, light, multifunctional fibers of carbon nanotubes with ultrahigh conductivity 2013 0.35 34.661 91 0.57 284 744 

11 High performance twoply yarn supercapacitors based on carbon nanotubes and polyaniline nanowire 2013 0.71 18.96 25 0.76 216 782 
arrays 

12 Twisting carbon nanotube fibers for both wire-shaped micro-supercapacitor and micro -battery 2013 0.79 18.96 0.81 251 767 
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本 文 运 用 Pearson 相关 系数 对 论文 S 值 与 被 引 量 进 
行 相关 性 分 析 。Pearson 相关 系数 常用 于 度量 两 个 随机 
变量 X 与 Y 之 间 的 线性 相关 程度 ,计算 公式 如 下 : 
NSx y -Sx Sy 
NEw — (Bm)” WN (39) 
公式 (5) 
将 表 4 中 数据 代入 公式 (5) ,计算 得 出 2010 年 、 
2011 年 .2012 年 .2013 年 论文 5S 值 与 被 引 量 相 关系 数 
分 别 为 -0.32、- 0.87、- 0.98、- 0.74。 上 述 相 关系 
数值 说 明 论文 $ 值 与 被 引 量 之 间 存在 较 强 的 负 相 关 关 
系 ,表明 S 值 越 优异 (数值 越 小 ) ,论文 的 被 引 量 越 高 ， 
创新 力 越 大 。 下 面 数据 是 对 各 年 份 论文 S 值 与 被 引 量 
数值 之 间 的 分 析 : 

一 (1) 对 于 2010 年 的 论文 ,序号 为 1 的 论文 $ 值 最 
优 3 同 时 得 到 了 最 高 的 被 引 频次 125 次 。 序 号 为 2 和 3 
的 论文 S 值 较 优 ,在 Histcite 引文 分 析 图 中 属于 高 被 引 
其, 被 引 频 次 分 别 为 91 次 .116 次 。 

(2) 对 于 2011 年 的 论文 ,序号 为 4 的 论文 5 值 最 
-同时 得 到 了 最 高 的 被 引 频次 180 次 。 序 号 为 5 .6 
S 值 较 优 ,在 Histcite 引文 分 析 图 中 同样 属于 高 
被 引 论 文 ,被 引 频 次 分 别 为 70 次 .54 次 。 

CN(3) 对 于 2012 年 序号 为 7 和 2013 年 序号 为 10 的 
论 记 ,其 在 同一 年 份 的 论文 中 均 具有 最 优 的 S 值 ,同时 
得 到 了 最 高 的 被 引 量 。 序 号 为 8.9、11 .12 的 论文 同样 
具有 较 优 的 S 值 , 且 在 Histcite 引文 分 析 图 中 均 属于 高 


所 综 上 分 析 , 符 合 科学 研究 前 沿 主 题 同 时 具有 较 高 
期 利 声 望 和 替代 计量 学 指标 的 论文 具有 较 优 的 S 值 ， 
同 解 得 到 了 较 高 的 被 引 量 。 上 述 实验 结果 证 明 , 本 文 
提出 的 基于 研究 主题 对 比 的 单 篇 学 术 论 文 创 新 力 评价 
方法 能 够 较为 准确 地 从 论文 内 容 角 度 对 单 篇 学 术 论 文 
的 创新 力 进行 评价 。 


5 总 结 


识别 具有 潜在 创新 主题 概念 和 语义 属性 的 学 术 论 
文 对 于 科学 研究 具有 重要 意义 。 本 文 提出 一 种 基于 研 
究 主 题 对 比 的 单 篇 学 术 论 文 创新 力 评价 方法 。 该 方法 
首先 通过 Keygraph 算法 提取 代表 论文 研究 主题 的 关键 
词 , 然 后 将 论文 主题 与 科学 研究 前 沿 主题 进行 相似 度 
计算 ,最 后 结合 期 刊 影响 因子 和 Altmetrics 两 项 外 在 指 
标 通过 TOPSIS 法 对 论文 创新 力 进 行 综合 评价 。 通 过 
对 “ 碳 纳 米 管 ” 材 料 领域 的 论文 进行 实证 研究 ,研究 结 
果 发 现 论文 $ 值 与 其 被 引 量 之 间 存 在 较 强 的 相关 性 ,S 
值 越 优异 的 论文 其 被 引 量 相 对 越 高 ,实验 结果 表明 ,该 
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方法 能 够 有 效 识别 具有 和 较 高 创新 力 的 论文 。 

本 文 的 主要 贡献 在 于 尝试 利用 自然 语言 处 理 技 
术 , 从 论文 研究 主题 角度 对 论文 创新 力 进行 评价 。 与 
传统 方法 相 比 较 , 该 方法 具有 以 下 两 点 优势 : 

(1) 该 方法 克服 了 传统 引文 分 析 方 法 评价 论文 创 
新 力 的 时 滞 性 问题 ,论文 主题 相似 度 计 算 值 .期刊 影响 
因子 .Altmetrics 指标 均 能 够 在 论文 发 表 第 一 时 间 获 
取 。 因 此 ,与 传统 引文 分 析 方法 相 比较 ,该 方法 不 需要 
历史 数据 积累 ,能 够 在 论文 发 表 后 对 论文 进行 快速 评 
价 ,帮助 科研 人 员 及 时 把 握 具 有 较 高 创新 力 的 论文 。 

(2) 引 文 分 析 指 标 、 期 刊 影响 因子 、Altmetrics 指标 
等 评价 指标 均 属于 外 在 指标 ,其 与 论文 创新 主题 的 概 
念 是 松散 的 或 并 不 直接 结合 ,不 能 完全 体现 论文 的 创 
新 价值 。 随 着 信息 技术 的 发 展 ,特别 是 自然 语言 处 理 、 
全 文 检索 文本 挖掘 等 技术 的 发 展 ,从 论文 内 在 角度 对 
论文 创新 力 进行 评价 逐步 成 为 可 能 。 本 文 利用 自然 语 
言 处 理 技术 从 论文 研究 主题 角度 , 辅 以 期 刊 影响 因子 
和 Altmetrics 指标 两 项 外 在 指标 进行 综合 评价 ,更 加 万 
合 了 论文 创新 主题 的 概念 。 

然而 ,本 研究 仍 具 有 一 定 的 局 限 性 :中 本 文 提 出 的 
论文 创新 力 评 价 方法 将 期 刊 影响 因子 和 Altmetrics 指 
标 数值 作为 评价 指标 ,但 该 两 项 指标 数值 具有 一 定 的 
不 稳定 性 ,其 可 靠 性 也 受到 许多 专家 和 学 者 的 质疑 ,这 
在 一 定 程度 上 会 影响 本 研究 方法 的 评价 结果 ;书本 文 
利用 科学 研究 前 沿 主题 对 学 术 论 文 创新 力 的 评价 是 
“新 论点 ”层面 的 创新 力 评价 , 某 些 综述 性 论文 的 主题 
可 能 符合 科学 人 研究 前 沿 主 题 ,并 可 能 发 表 在 高 水 平 期 
刊 上 ,但 其 创新 力 并 不 高 ,本 文 提出 的 方法 不 能 对 综述 
型 论文 进行 自动 排除 。 

针对 本 文 提 出 方法 的 局 限 性 ,下 一 步 研究 将 一 方 
面 改进 论文 主题 词 抽取 算法 ,并 添加 如 参考 文献 .作者 
声望 等 更 多 的 外 在 指标 对 论文 创新 力 进行 更 全 面 、 客 
观 的 评价 ; 另 一 方面 通过 对 更 多 领域 的 论文 进行 实证 
研究 ,提高 该 方法 的 鲁 棒 性 和 泛 化 能 
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Abstract: [Purpose/significance | Innovation is the essence requirement of academic papers, and how to effectively 


evaluate the innovation of academic papers has been concerned about by domestic and foreign experts and scholars. The 


development of information technology makes it possible to automatically evaluate papers” innovation based on the content 


using computers. | Method/process| This paper presents a method to evaluate papers ”innovation based on the research 


theme comparing. Firstly, keygraph algorithms is used to extract keywords which represent papers ”theme. Then, the simi- 


larity of the research theme and the scientific research front theme is calculated. Lastly, a comprehensive model is presen- 


ted to determine the level of papers ”innovation bytwo external indicators includingthe journal impact factor and altmetrics. 


[ Result/ conclusion | An empirical study of carbon nanotube field demonstrated thatthis method can evaluate papers ”in- 


novation from the perspective of papers ”contents effectively, quickly and accurately. 
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